from datasets import load_dataset

# 流式加载 Java 子集的数据
ds = load_dataset("bigcode/the-stack", "default", split="train", streaming=True)

# 遍历数据样本
for (sample, index) in ds:
    print(sample)
    break  # 仅打印第一个样本
